iT邦幫忙

2025 iThome 鐵人賽

DAY 3
0
生成式 AI

生成式AI中的RAG技術:對LLM的應用與價值系列 第 3

為什麼 LLM 會產生幻覺(Hallucination)?

  • 分享至 

  • xImage
  •  

上篇提到,大型語言模型(LLM)會產生幻覺,是指模型生成看似合理但實際上不正確或無事實根據的信息。這類問題在不同場景中都會出現,例如回答事實問題、引用來源、描述歷史或統計數據時。故理解它的原因對於提升模型可靠性非常重要,以下是幾個主因與機制:

訓練資料的局限性與誤差
模型訓練所用的文本資料來自各種公開來源,如網頁、電子書、報告等,其中可能含有不正確或過時的資訊。模型無法完全識別何者為實何者為非,只是學習統計共現與語言樣態。資訊的不一致、錯誤或偏誤會被學習並偶爾在生成時被復現。

知識截止時間(Knowledge Cutoff)
訓練資料有截止時間點,之後的事件或新資訊模型不知道。如果被問到這些最新資訊,就可能給出錯誤甚至虛構答案。

語境與輸入提示(prompt / context)不完整或模糊
如果提示中的上下文不足、問題敘述不夠清楚或覆蓋範圍過寬,模型為了完成任務會「填補空白」,生成看起來合適但不一定正確的內容。因模型傾向基於過去語料中類似情境猜測下一個token,幾乎等同於在一個合理的範圍內做文字接龍。 

統計與模式學習偏差
LLM的本質是統計模型,重視詞與詞之間共同出現的機率、語料中某些模式的頻率等。有研究指出模型可能過度依賴某些高頻現象或靠「共現關係」來生成答案,而忽略語義或邏輯關係,導致產生錯誤或一貫性差的回應。

模型架構與解碼策略(decoding strategy)引起的不確定性
在生成文字時,模型常用的解碼方法(如 beam search、temperature sampling、top-k、top-p 等)會影響輸出的「隨機性」。為了生成自然、豐富的文字,有時模型會冒風險選擇較不常見的token,增加創意性但也可能導致錯誤。加上注意力(attention)或上下文窗口(context window)的限制,也會讓模型在長文本中丟失上下文或混淆訊息。

任務與評估指標的不完全對齊
訓練與評估模型時,往往是以「生成流暢性」或「答對多少題目」做指標,而不一定要求模型能誠實地表示自己不知道答案。這種壓力促使模型在不確定時也要給出一個看似正確的答案,而不是拒絕。這種 “猜測” 驅動(guessing incentive)會增加幻覺的發生率。 
幻覺(Hallucination)是LLM的一個一直存在問題,目前無法完全剔除。它源自於訓練資料的不完全與錯誤、知識時效性的限制、提示上下文不足、模式學習偏差與解碼策略帶來的不確定性,以及評估制度裡對模型在不確定情況下激勵其“猜答案”的機制。為了降低幻覺風險,可採用方法包括改善訓練資料質量、使用RAG(檢索輔助生成)、強化提示與上下文、改進解碼與模型對「不知道」的反應設計。


上一篇
LLM(大型語言模型)的運作原理與限制
系列文
生成式AI中的RAG技術:對LLM的應用與價值3
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言